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Jj] 要 :针对 普通 话语 音 识别 任务 中 的 多 口音 的 识别 问题 ,提出 了 链接 时 序 主义 (connectionisttemporal classification, 
CTC) 和 多 头 注 意 力 (MultiHead attentiom) 的 混合 端 到 端 模型 ， 同 时 采用 多 目标 训练 和 联合 解码 的 方法 。 实 验 分 析 发 现 
随 着 混合 架构 中 链接 时 序 主 义 权 重 的 降低 和 编码 器 层 数 的 加 深 ， 混 合 模型 在 带 口 音 的 数据 集 上 表现 出 了 更 好 的 学 习 
能 力 ， 同 时 训练 一 个 深度 达到 48 层 的 编码 器 -解码 器 架构 的 网 络 ， 生 成 的 模型 表现 了 超过 之 前 所 有 端 到 端 模型 ， 在 
数据 堂 开源 的 200h 带 口音 数据 集 上 达到 了 5.6% 字 错 率 和 26.2% 句 错 率 。 实 验证 明了 本 文 提出 的 端 到 端 模型 超过 一 
般 端 到 端 模型 的 识别 率 ， 在 解决 带 口音 的 普通 话 识 别 上 有 一 定 的 先进 性 。 
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Hybrid CTC/attention architecture for end-to-end multi-accent mandarin speech recognition 


Yang Wei, Hu Yan! 
c— (School of Computer Science & Technology, Wuhan University of Technology, WuHan Hube 430000, China) 


Abstract: To improve the performance of multi-accent Mandarin speech recognition task, this paper present a method for 
hybrid end-to-end automatic speech recognition(ASR) by combining Connectionist Temporal Classification (CTC) and 
MutiHead Attention by using a multiobjective training and joint decoding. Our analysis shows that hybrid model with lower 
CTC weight and deeper encoder layers performance better learning capacity. And we trained a very deep models with up to 
48 layers for encode-decoder Architecture, which outperform all previous end-to-end ASR approaches on Aidatatang 200h 
multi-accent dataset, achieve 5.6% Character Error Rate(CER) and 26.2% Sentence Error Rate(SER) . The experiment proves 
that the recognition rate of the end-to-end model proposed in this paper exceeds the general end-to-end model, and it has 
certain advancedness in solving the Mandarin recognition with accents. 

Key words: accent; hybrid CTC/attention end-to-end model; multi-head attention; connectionist temporal classification; 
speech recognition 
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0 引言 estimation，MAP) 的 方法 在 带 上 海口 音 的 普通 话语 音 识别 9 
= 取得 了 一 定 的 提升 四 。 随 着 深度 神经 网 络 在 自动 语音 识别 

随 着 人 工 智能 技术 的 飞速 发 展 ， 语 音 识别 技术 已 经 成 为 (automatic speech recognition，ASR) 中 的 发 展 ， 有 学 者 提出 增 

了 智能 设备 的 标 配 ， 成 为 人 机 交互 的 重要 手段 之 一 。 在 语音 。 加 一 层 特定 的 口音 判别 层 ， H KL 散 度 (Kullback-Leibler 
CS 识别 技术 中 ， 口 音 一 直 是 语音 识别 技术 的 难点 趾 。 对 于 普通 。 ”divergence, KLD) 的 方法 训练 该 顶层 口音 模型 , 在 深度 神经 网 
话 而 言 ， 由 于 方言 众多 ， 大 部 分 人 的 普通 话 极 易 受到 当地 方 络 (deep neural networks, DNN) 上 针对 非 英 语 母 语 说 话 人 的 语 
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A. AWARA., GIL 79.6% 的 普通 话 使 用 者 有 音 识 别 上 取得 了 显著 的 提升 四。 后 来 又 有 学 者 结合 上 述 模型 
音 ， 他 们 之 中 有 44% 有 严重 的 口音 。 和 增加 说 话 人 特定 特征 (i-vectonD) 中 特征 输入 到 特定 的 口音 判 


为 了 解决 语音 识别 中 的 口音 的 问题 ， 最 早 有 学 者 提出 使 ” 别 层 的 方式 ， 在 带 口 音 普 通话 的 识别 上 取得 了 很 大 的 提升 效 
词典 自 适应 的 方法 M3 简单 来 说 就 是 根据 方言 的 发 音 习惯 。 果 外 。 也 有 研究 者 提出 一 种 融合 特征 下 基于 卷 积 神经 网 络 的 
扩展 发 音 词 典 ， 但 是 这 种 方法 会 增加 词典 的 混淆 ， 因 此 并 不 “说话 人 语音 分 割 模型 ， 为 解决 普通 话说 话 人 和 四 川 话说 话 人 


会 取得 明显 的 提升 。 所 以 解决 口音 问题 的 关键 集中 在 了 声学 的 语音 识别 场景 的 任务 提供 了 一 定 的 研究 价值 09。 

模型 上 ， 最 简单 直接 的 方法 就 是 为 每 一 种 口音 都 建立 一 个 在 最 近 的 研究 中 ， 在 语音 识别 系统 中 采用 长 短 时 记忆 循 
学 模型 由 。 这 种 方式 对 于 每 一 种 需要 建立 声学 模型 的 方言 来 环 神经 网 络 (long-short term memory recurrent neural networks, 
说 都 需要 大 量 的 方言 数据 进行 训练 才能 得 到 较 高 的 识别 率 ， LSTM-RNN)ID0 的 表现 可 以 媲美 最 新 的 基于 隐 马 尔 可 夫 模 型 
最 后 使 用 语音 决策 树 选 出 最 好 的 模型 。 因 此 ， 最 好 的 方式 是 的 深度 神经 网 络 (deep neural network hidden Markov models， 


建立 一 个 统一 的 自 适应 声学 模型 能 够 准确 的 识别 不 同 的 口音 。 DNN-HMM) 系 统 的 识别 效果 ,研究 者 在 基于 长 短 时 记忆 循环 
针对 口音 问题 建立 自 适应 的 声学 模型 已 经 有 很 多 学 者 进 神经 网 络 的 语音 识别 模型 上 进行 了 很 多 研究 ， 从 各 个 方面 显 
行 了 很 多 的 工作 。 最早, 在 高 斯 - 隐 马 尔 可 夫 模型 上 (Gaussian 著 的 改善 了 普通 话语 音 识别 系统 的 整体 性 能 。 由 于 基于 长 短 
mixture density hidden Markov model，GMM-HMM) 模 型 上 有 时 记忆 循环 神经 网 络 网 络 的 优秀 表现 ， 在 带 口音 的 语音 识别 
研究 者 提出 极 大 似 然 线性 回归 (maximum likelihood linear ”方向 ， 有 研究 者 使 用 一 层 深 度 神 经 网 络 作 为 口音 依赖 特征 层 
regression，MLLR) 的 方法 个。 后 续 也 有 研究 者 提出 结合 极 大 过 滤 特 定 口 音 的 特征 ， 用 双向 长 短 时 记忆 循环 神经 网 络 
JUL A £l 和 和 最 大 后 验 概率 估计 (maximum a posteriori (bidirectional long short-term memory recurrent Neural networks, 
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BLSTM-RNN) 训 练 自 适 应 的 声学 模型 ， 在 多 口音 的 普通 话 识 
别 上 也 取得 了 一 定 的 效果 (3。 上 述 方法 在 训练 过 程 中 需要 对 
不 同方 言 信息 进行 单独 的 分 类 和 训练 ， 对 于 部 分 方言 数据 缺 
乏 的 情况 很 难 取得 较 好 的 识别 率 。 同 时 上 述 模 型 仍然 是 遵循 
传统 的 模块 化 建 模 的 方案 , 需要 进行 多 阶段 的 独立 训练 (声学 
模型 ,发 音字 典 , 语言 模型 )， 还 需要 一 些 丰 富 的 专业 知识 来 
进行 超 参数 的 配置 03.44。 

相反 ， 端 到 端的 模型 可 以 直接 进行 语音 特征 到 文本 的 转 
录 ， 不 包含 任何 一 个 中 间 件 ， 直 接 建 立 语音 到 文本 之 间 的 映 
射 ， 可 以 潜在 的 优化 最 终 任务 的 所 有 部 分 ， 同 时 在 不 同 的 语 
言 体系 下 也 可 以 利用 相同 的 框架 训练 直接 训练 。 端 到 端 模型 
已 经 在 很 多 语音 识别 任务 中 表现 出 来 可 以 媲美 最 先进 的 传统 
模型 的 识别 效果 03-17。 端 到 端 模 型 可 以 分 为 三 种 主要 的 基本 
模型 架构 , 基于 链接 时 序 主义 的 模型 (CTC)03442728 借 鉴 了 马 
尔 可 夫 假设 有 效 的 解决 序列 的 动态 对 齐 问 题 ， 基 于 注意 力 机 
的 模型 (attention)09202324 通 过 一 个 注意 力 机 制 解决 了 声学 
陆 和 标签 之 间 的 对 齐 问 题 ， 基 于 混合 架构 的 模型 
(CTC/attention) 通 过 对 上 述 两 种 模型 进行 联合 训练 和 联合 解 
码 ， 在 解码 和 是 被 上 都 取得 了 优 于 上 述 单独 一 种 方式 训练 的 
效果 P12。 研究 者 针对 端 到 端 模型 鲁 棒 性 差 ， 固 定 长 的 语音 
陆 造 成 的 时 频 信 息 和 部 分 高 频 信息 的 损失 问题 ， 提 出 了 
ResNet-BLSTM 网 络 ， 有 效 的 降低 了 模型 的 字 错 率 户 ]。 

本 文 提 出 结合 多 头 注意 力 (multi-head attention) 的 编码 器 
-解码 器 模型 2423 和 链接 时 序 主义 (CTC) 的 混合 端 到 端 架构 模 
型 ， 采 用 联合 训练 和 联合 解码 的 方式 20。 在 模型 中 ， 加 深 
编码 器 -解码 器 网 络 的 深度 并 训练 了 一 个 非常 深 的 编码 器 - 解 
码 器 网 络 ， 研 究 深 层次 网 络 对 于 语音 识别 的 影响 ， 同 时 在 浅 
层 的 编码 器 -解码 器 网 络 中 设置 不 同 随机 失 活 比率 , 研究 带 口 
音 数据 集 的 训练 过 程 。 
1 ”混合 CTC/attention 模型 

本 文 提出 的 模型 ， 如 图 1， 本 文 提出 了 一 个 基于 多 头 注 
意 力 和 链接 时 序 主义 的 深层 编码 器 -解码 器 网 络 , 在 混合 架构 
中 , 链接 时 序 主义 (CTC) 和 多 头 注 意 力 (multi-head attention) EX 
合 训 练 和 联合 打分 ， 同 时 通过 加 深 编 码 器 和 解码 器 网 络 层 的 
方式 进一步 提升 了 识别 率 。 
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图 1 基于 多 头 注意 力 和 链接 时 序 主义 的 深层 编码 器 -解码 器 架构 


Fig. 1 Deep encoder-decoder architecture based on multi-head 
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attention and connectionist temporal classification 
对 于 端 到 端的 语音 识别 任务 ， 目 的 是 通过 一 个 单一 的 网 
络 ， 对 于 输入 序列 x=(%.…, 轨 )， 计 算 所 有 输出 标签 序列 
y=% x) BINE, 通常 U<T ，y%eL，L 是 有 限 字符 集 的 
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合 ， 并 输出 最 大 概率 的 标签 序列 。 即 : 


y’ =argmax P(y|x) (1) 


已 


1.1 链接 时 序 主 义 (CTC) 

基于 链接 时 序 主义 训练 的 网 络 如 图 2 所 示 , 在 CTC 训练 
中 ,定义 中 间 标 签 序列 z=(m,…,xr)， 在 序列 7 中 允许 重复 的 
标签 存在 ， 并 插入 一 个 空白 标签 <-> EA NT. BU 
zeLU{<->} 。 假 设 > 是 ?增加 了 分 隔 符 之 后 的 扩展 ， 例 如 
y=(m b h a 0), y 2(5ni-h-a-o-),5EX—^4 zx 
的 映射 B:L-> 启 ， 其 中 天 是 可 能 的 中 间 标 签 序 列 7 的 输出 
集合 ， 可 以 得 到 输出 标签 的 PO) 概率 : 


P(y|3e > P(z|x) Q) 


zeB- (y) 


图 2 ”链接 时 序 主义 (CTC) 
Fig.2 Connectionist temporal classification 


对 于 二 ,在 输入 序列 x 的 每 个 时 间 步 :都 要 计算 对 应 的 输 


出 埃 ， 假 设 每 个 时 间 步 之 间 的 输出 序列 是 有 条 件 的 独立 的 ， 
可 以 得 到 式 (3): 
Pos) s [ [P | 7.735,70 xy VA EL (3) 


式 (1)~(3) 可 以 定义 CTC 的 损失 函数 负 对 数 概率 值 : 
L, (S) 2 In p(y | x) 
--In > paj» 
aeB- (y) 
=- 2 n Y, pano) (4) 


(ty)eS meB-I(y) 


=->m > Iac. va er 


Guy)eS — zeB-(y) 1=1 


在 式 (4) 中 ，S 代表 输入 序列 x 和 输出 标签 之 间 的 映射 ， 
q(T) 代表 标签 在 时 间 步 1 的 概率 。 在 式 (4) 中 ,在 计算 过 程 
中 需要 穷 举 出 所 有 时 间 步 的 所 有 的 标签 序列 ， 在 计算 上 需要 
NT WER, N 代表 标签 的 总 数 , 计算 量 太 复杂 。CTC 算法 [17 
借鉴 HMM 的 前 后 项 算法 ， 优 化 计算 的 速度 : 
P01 =$ 2 LAO (5) 

在 式 (5) 中 , o, 60 代表 第 u 个 标签 在 时 间 步 ! 的 前 向 概率 ， 
BW 代表 第 个 标签 在 时 间 步 1 的 后 向 概率 。 
12 基于 多 头 注 意 力 的 编码 器 -解码 器 

本 文 使 用 的 编码 器 -解码 器 模型 P020 受 到 google 的 
transformer 模型 2627 的 启发 ， 采 用 基于 多 头 注意 力 的 多 层 编 
码 器 -解码 器 解码 器 模型 , 同时 在 每 层 输 入 前 都 添加 一 层 随 机 
失 活 层 。 编 码 器 中 的 每 一 层 都 是 由 一 个 多 头 注 意 力 层 和 一 个 
全 连接 的 前 向 网 络 组 成 ， 解码 器 中 的 每 一 层 由 一 个 屏蔽 当前 
时 刻 之 前 的 注意 力 信息 的 多 头 注意 力 层 和 计算 编码 器 输入 的 
注意 力 层 ， 全 连接 的 前 向 网 络 三 层 网 络 组 成 。 在 输入 端 。 如 
3， 为 单 层 的 编码 器 一 解码 器 网 络 结构 o 


202009.00112v1 


chinaXiv 


录用 定稿 杨 威 ， 等 : 


编码 器 根据 输入 序列 x=%…, 轨 ) 计算 一 个 输出 的 中 间 
序列 z=(a…,zr) ， 解 码 器 将 序列 z 作为 输入 ， 在 每 个 时 间 步 
都 会 更 新 输出 标签 7=(y%,…,y%) 中 的 一 个 标签 ,在 更 新 输出 标 
签 过 程 中 ， 模 型 也 会 根据 前 面 的 标签 作为 输入 来 更 新 下 一 个 
输出 标签 。 如 下 : 


z = Encoder(x) (6) 
y, = Decoder(z, y, 4) (7) 


mL 
EC. 芭 
输入 标签 序列 


图 3 单 层 编码 器 -解码 器 网 络 结构 


Fig.3 Sequence-to-sequence keyword extension model 


based on attention mechanism 
根据 最 大 似 然 估计 ， 可 以 最 大 化 输出 序列 基于 输入 序列 
的 条 件 概 率 作为 损失 函数 : 


La =-log p(yi, ys Yr 33:35. 7X1) 


SOLO (8) 

从 式 (6)(7) 可 以 看 出 , 解码 器 的 输入 依赖 于 相同 的 序列 z ， 
z 得 到 的 是 由 序列 x 计算 出 的 最 终 时 间 步 的 隐藏 向 量 ， 而 在 
实际 的 语言 序列 中 ， 每 个 时 刻 标签 的 输出 通常 更 加 依赖 于 相 
近 时 刻 的 特征 , 所 以 在 编码 器 -解码 器 模型 中 引入 注意 力 机 制 。 
注意 力 机 制 在 每 个 时 刻 都 会 输出 一 个 结果 ， 可 以 理解 为 将 
原来 固定 的 中 间 序 列 z 转换 成 会 根据 当前 输出 的 动态 变化 的 
序列 z。 
多 头 注意 力 机 制 首先 对 输入 做 线性 转换 初始 化 三 个 权重 


Q- K =V = Linear(X) (9) 
然后 根据 点 积 的 方式 计算 矩阵 O, K 的 相似 度 : 
roo T (10) 
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对 于 解码 器 的 输入 ， 只 能 计算 当前 时 刻 和 之 前 时 刻 输入 
特征 的 相似 度 ， 屏 蔽 未 来 信息 ， 通 常 填充 0 将 式 (10) 计 算 的 
矩阵 变 成 下 三 角 和 矩阵 。 然 后 用 softmax 函数 做 归 一 化 输出 ， 
根据 注意 力 分 布 计算 加 权 平 均 : 

Attention(Q, K,V)= soft max( f (Q, KV (11) 

为 了 避免 过 拟 合 问 题 ， 设 置 随机 失 活 神经 元 ， 本 文采 用 
的 是 随机 设置 失 活 神经 元 的 dropout 函数 ， 根 据 多 头 注意 力 
的 计算 原则 ， 将 上 面 得 到 的 结果 重复 计算 n 次 ， 最 终 的 结果 
做 拼接 ， 转 换 成 线性 输出 : 

Attention(Q, K,V) = soft max(f (Q, K))V (12) 
MultiHead(Q, K,V) = Concat(head,,..., head, )W 9 (13) 
进行 完 多 头 注意 机 制 的 计算 ， 在 编码 器 和 解码 器 的 每 一 
层 都 要 经 过 一 个 全 连接 的 前 向 网 络 处 理 ， 包 含 两 个 线性 变化 
和 一 个 激活 函数 输出 : 
FFN(x)= (dropout(xW, + b,))W, + b, (14) 

得 到 序列 得 分 和 注意 力 分 布 图 。 
1.3 多 目标 学 习 和 联合 解码 
本 文 使 用 的 混合 模型 受到 07?2 的 启发 ， 基 于 链接 时 序 主 
义 和 基 于 多 头 注 意 力 的 模型 联合 训练 ， 编 码 器 由 链接 时 序 主 
义 (CTC) 和 多 头 注 意 力 模 型 (multi-head attention) t =, 训练 的 
过 程 中 采用 多 目标 学 习 (multiobjective learning, MTL)P?18 X 
式 , 相对 于 单一 的 数据 驱动 的 注意 力 模 型 , 利用 了 CTC 的 前 
-后 向 算法 执行 语音 到 标签 之 间 的 强制 单 音 对 齐 , 加 速 了 对 齐 
的 过 程 。 同 时 对 比 单一 的 CTC 模型 ， 由 于 注意 力 的 目标 是 字 
符 集 的 ，CTC 的 目标 是 序列 级 的 ， 可 以 帮助 提升 CTC 目标 
的 准确 性 。 使 用 交叉 损失 准则 将 和 相 结 合 的 联合 打分 ， 提 高 
了 重 棒 性 ， 由 式 (4) 和 (8) 可 以 得 出 : 
Luo. 7 4log Pae (c | x) +( — 210g Par (c | x) (15) 
其 中 参数 4e[0,11 是 一 个 插值 权重 。 除 了 利用 多 目标 学 习 训练 
网 络 ， 在 混合 模型 中 还 有 一 个 重要 的 步骤 就 是 联合 解码 。 

混合 架构 中 ， 通 常 是 使 用 集束 搜索 算法 (beam search 
process) 来 执行 解码 过 程 , 完整 的 集束 搜索 方法 需要 计算 出 每 
一 种 假设 的 得 分 。 混 合 架构 中 需要 联合 链接 时 序 主义 的 得 分 
和 注意 力 得 分 。 在 集束 搜索 中 中 ， 利 用 了 动态 规划 的 思想 ， 
于 每 一 个 时 间 步 ， 都 由 前 面 可 能 的 路 径 扩展 ， 得 到 当前 时 
步 的 局 部 概率 g， 这 个 局 部 概率 由 前 面 的 路 径 决 定 ， 通 过 
前 时 间 步 可 能 的 标签 的 概率 c， 可 以 得 到 当前 时 间 步 的 所 
可 能 的 假设 h, 即 当前 标签 c 可 不 可 能 出 现在 当前 时 间 步 ， 
得 到 假设 后 就 可 以 通过 式 (15) 计 算 联 合 得 分 ， 到 下 一 个 时 间 
步 继 续 扩 展 节点 得 到 每 个 路 径 的 打分 , 当 预 测 到 结尾 字符 时 ， 
将 满足 最 小 阔 值 要 求 的 序列 加 入 到 最 终 序列 中 。 比 较 所 有 可 
能 序列 的 得 分 ， 取 最 高 分 为 目标 序列 。 本 文 在 搜索 解码 过 程 
中 ,采用 多 路 搜索 ,每 次 选择 概率 最 大 的 k 个 节点 进行 扩展 ， 
使 每 一 步 最 多 扩展 k 个 节点 ， 而 不 是 随 着 时 间 步 的 增长 呈现 
指数 增加 ， 可 以 很 大 程度 的 降低 穷 举 搜索 的 复杂 度 。 


Score = arg max (Aa, (h, x) + 0 — A (h, x)) a 6) 
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2 实验 


2.1 实验 模型 
本 文采 用 的 端 到 端 模型 为 基于 链接 时 序 主 义 和 基 于 多 头 

注意 力 混 合 模型 。 对 比 采 用 的 传统 模块 化 模型 为 高 斯 - 隐 马 尔 

可 夫 模 型 ， 时 延 神经 网 络 模型 (time-delay neural network, 

TDNN) 和 链 式 模型 (chain)。 对 比 采 用 的 端 到 端 模型 为 基于 链 

接 时 序 主 义 和 基 于 位 置信 息 的 混合 模型 ， 基 于 多 头 注意 力 的 

模型 。 

2.2 数据 

在 本 文 的 实验 中 ， 本 文采 用 数据 堂 开源 的 200h 带 口 


a 


录用 定稿 杨 威 ， 等 : 


普通 话 数据 集 , 数据 集中 包含 30 万 条 口语 化 的 句子 , 共 6408 
A, 其 中 男性 2999 A, 女性 3301 A, 录音 人 员 分 布 于 广东 、 
福建 、 山 东 等 34 个 省 级 行政 区 域 。 传 统 的 模块 化 模型 在 
Kaldi2g 平 台 下 完成 , 端 到 端 实 验 都 在 开源 的 ESPnet(end-to- 
end speech processing toolkibP29] 端 到 端 语音 开发 平台 下 完成 ， 
传统 的 模块 化 模型 在 Kaldi28 平 台 下 完成 。 在 所 有 的 实验 中 
对 于 音频 数据 , 都 采用 1.6 KHz 的 抽样 频率 , 80 维 的 FBANK 
特征 向 量 ， 每 帧 25 ms， 帧 移 10 ms。 

2.3 网 络 结构 及 参数 


到 端 模型 在 多 


制 的 得 分 所 
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混合 CTC/attention 架构 的 端 到 端 带 口音 普通 话 识别 


力 机 制 模型 采用 12 


语句 中 。 


本 文 使 用 的 网 络 ， 使 用 4 层 的 多 头 注意 力 ， 每 层 输入 注 
意 力 的 维度 为 256, 前 向 全 连接 层 的 输入 特征 维度 为 256, 隐 
藏 特征 维度 为 2048, 双向 长 短 时 记忆 单元 数 为 2048。 联合 训 
练 参 数 入 为 0.3, 随机 丢失 激活 细胞 率 为 0.1, 标签 平滑 为 0.1。 
集束 搜索 宽度 为 10, 语言 模型 占 比 重 0.1, epoch 次 数 为 50。 
2.4 评价 指标 

本 文 在 数据 堂 的 开发 集 和 测试 集 上 评价 实验 结果 ， 采 用 
字 错 率 (Character Error Rate，CER) 和 人 句 错 率 (Sentence Error 
Rate，SER) 作 为 评价 指标 ， 字 错 率 即 为 了 使 识别 出 来 的 词 序 
列 和 标准 的 词 序 列 之 间 保 持 一 致 ， 需 要 进行 蔡 换 、 删 除 或 者 
插入 某 些 词 , 这 些 插入 (])、 替换 (S) 或 删除 (D) 的 词 的 总 个 数 ， 
除 以 标准 的 词 序列 中 词 的 总 个 数 的 百分比 。 句 错 率 中 ， 如 果 
一 个 词 识别 错误 ， 那 么 这 个 句子 被 认为 识别 错误 。 即 : 


CER( 字 误 率 ) = 


(17) 


S+D+I 
N 


正确 句 数 
总 句 数 


SER( 句 错 率 ) —1- 


(18) 
2.5 ”对比 实验 

本 文 实现 了 GMM-HMM 模型 ， 时 延 神经 网 络 模型 
(TDNN) 和 kaldi 的 链 式 模型 三 个 传统 模型 作为 对 比 实验 ， 这 


三 个 传统 模型 也 是 数据 堂 开源 的 在 带 口 音 普通 话语 音 数据 集 
中 表现 最 好 的 三 种 模型 ， 采 用 kaldi S THAF aidatatang 的 
方案 (https://www.datatang.com)。 
高 斯 一 隐 马 尔 可 夫 模 型 (GMM-HMM): 经 过 特征 提取 之 
后 的 语音 特征 序列 ， 在 忽略 时 序 的 条 件 下 ， 研 究 者 发 现 高 斯 


混合 分 布 非常 适合 拟 合 这 样 的 特征 序列 ， 因 此 GMM 被 整合 
到 HMM 中 , 拟 合 基 于 状态 的 输出 分 布 , 提出 了 GMM-HMM 
模型 。 
时 延 神经 网 络 模型 (TDNN): 时 延 神经 网 络 中 可 以 对 长 
列 的 具有 依赖 时 序 的 序列 建 模 ， 采 用 二 次 采样 的 方法 减 


PA 


I 


口音 普通 话语 音 识别 上 的 
MTL(Multitask Learning) 参 数 代表 联合 训练 中 基于 注意 力 机 
5 的 比重 ， 表 1 中 混合 端 到 端 架 构 中 的 多 头 注意 
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六 四 H 
效果 ， L 中 


层 的 编码 器 -06 层 的 解码 器 
于 多 头 注意 力 机 制 的 模型 ， 混 合 模型 有 
率 和 6.3%-7.1% 的 句 错 率 的 提升 。 
数据 集中 ， 大 部 分 上 


10.096 


识别 错误 集中 在 重 口音 普 


变异 问题 。 相 较 传 统 
现 出 来 了 良好 的 性 能 


络 模型 TDNN) 和 传统 的 HMM-GMM 模型 ， 
链 式 模型 。 但 端 到 端 


说 明 单 独 基 于 注意 力 机 制 
音 的 识别 上 还 存在 严重 的 缺陷 ， 尤 其 对 于 同一 个 字符 的 发 音 
混合 端 到 端 模型 展 
其 于 时 延 神经 网 
各 低 于 最 先进 的 
性 可 以 很 方便 


的 模块 化 识别 模型 ， 
通常 在 识别 率 上 领先 


的 模型 由 于 


架构 。 相 较 基 
-10.9% 的 字 错 
在 单独 基于 多 头 注意 力 的 
通话 的 说 话 人 
的 模型 在 拟 合 多 个 地 区 


的 达到 对 模型 整体 进行 调 优 的 目的 。 


表 1 市 


音 普通 话语 


其 良好 的 整体 1 


在 各 不 同 模型 中 的 识别 率 对 比 


Tab. 1 Comparison of the recognition rate of Mandarin speech with 


accents in different models 


test 
models 
CER(%) SER(%) 
GMM-HMM 12.2 43.1 
TDNN 7.1 31.2 
CHAIN 5.6 26.1 
Multi-Head 17.3 36.0 
LSTM-RNN-CTC 15.1 32.7 
CTC/Attention 
10.5 39.0 
(Location--MOL(0.5)) 
CTC/Attention 
10.9 39.7 
(Content-MOL(0.5)) 
CTC/Attention 
. 7.3 29.7 
(Multi-Head--MOL(0.1)) 
CTC/Attention 
6.4 28.9 
(Multi-Head+ MOL(0.3)) 
CTC/Attention 
6.5 29.7 


(Multi-Head--MOL(0.5)) 


如 表 1, 值得 注意 的 是 , 随 着 多 任务 学 习 权重 (MTL) 的 提 


升 (0.0， 


0.1，0.3), 识 别 


CTC 损失 权重 在 多 任 


算 量 ， 在 训练 上 比 同样 对 时 序 建 模 的 循环 神经 网 络 要 快 
时 网 络 利用 i-Vector 特征 ， 对 自 适应 说 话 人 和 环境 都 有 
性 ， 在 带 口 音 的 训练 中 也 有 良好 的 表现 。 

链 式 模 型 (Chain Modle): 链 式 模型 是 DNN-HMM 模型 的 
一 种 , 模型 借鉴 了 CTC 的 思想 , 引入 了 空 字 符 来 吸收 不 确定 
的 边界 ， 使 用 正确 序列 的 对 数 作为 目标 函数 ， 在 训练 过 程 中 
要 计算 分 母 和 分 子 的 概率 ， 并 使 用 两 者 之 间 差 异 的 倒数 回 传 
到 网 络 中 ， 链 式 模型 同时 可 以 有 效 地 提高 解码 的 速度 。 

基于 多 头 注 意 力 的 模型 2020: 多 头 注 意 力 是 基于 自 注 意 
力 机 制 的 ， 自 注意 力 模型 是 发 生 在 序列 内 部 ， 即 在 编码 器 内 
部 学 习 语 音 特 征 的 序列 ， 在 解码 器 内 部 学 习 到 标签 的 特征 ， 
相 较 一 般 的 注意 力 机 制 在 序列 问题 上 有 更 好 的 性 能 。 

LSTM-RNN-CTC 模型 B0: 结 合 了 LSTM 良好 的 序列 建 模 
能 力 ， 通 过 对 不 同 地 域 的 普通 话 口音 做 区 分 性 训练 ， 极 大 的 
提升 了 模型 识别 口音 的 能 


3 ”实验 结果 及 分 析 


传统 模型 与 端 到 端 模 型 对 比 
表 1 展示 了 传统 的 模块 化 自动 语音 识别 系统 和 常见 的 端 
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果 并 不 好 ,上 
身 基 于 带 条 


He 


AUR, 


可 以 强 
头 注意 力 
于 多 头 注 


HA 
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合 模 型 深度 与 随机 失 活 率 研 究 


3.2 


音 相似 


[E LL 


DNE: 


率 也 有 进一步 的 提升 。 如 


图 4 所 示 , 在 


务 训练 中 所 占 比重 过 大 , 模型 的 训练 效 


的 过 拟 合 现象 。 这 可 能 是 由 于 CTC 本 


模型 的 收敛 速度 。 


和 ye ee un 
合理 的 配置 设 


UTER 


的 进行 特征 和 标签 之 间 的 单 ， FJ 
的 模型 的 训练 带 来 了 很 大 的 提升 ， 同 时 也 加 快 了 基 


意 力 模型 的 | 


Ac Sici RE o 


不 好 。 


在 多 任务 学 习 的 框 
训练 权重 ， 基 于 链接 时 序 主义 的 方法 
周 对 齐 ， 


F 的 独立 假设 ， 在 多 口音 的 数据 集中 无 法 有 效 利 
的 特性 ， 导 致 模型 的 收敛 效果 
模型 上 ， 基 于 链接 时 序 主义 的 方式 仍然 可 以 有 效 的 帮助 提升 
识别 率 ， 同 时 可 以 提 于 


但 在 混合 


对 于 基于 多 


为 了 进一步 提升 多 口音 普通 话 的 识别 率 ， 加 深 编 码 器 和 
解码 器 的 网 络 层 ， 并 在 浅 层 网 络 中 逐步 提升 随机 失 活 率 分 别 


为 0.0、 
如 表 2 所 示 ， 实 验 结果 表明 了 本 文 提出 的 
注意 力 机 制 和 链接 时 序 主义 的 模型 ， 相 较 于 传统 的 GMM- 
TDNN 模型 ， 在 识别 率 上 都 有 较 大 的 提升 。 相 


HMM 


0.1. 0.5. 


较 常用 的 基于 LSTM-RNN-CTC HR 
不 仅 在 识别 率 有 较 大 提升 ， 寿 


的 提 天 


的 模型 ， 


I 基于 多 头 注意 力 机 制 


基于 深层 多 头 


。 同 时 随 着 层次 的 加 深 ， 字 错 率 可 以 达到 5.6%， 不 需 


HE cs 


E 


模型 简单 、 易 优化 。 


就 可 以 媲美 目前 表现 最 好 的 链 式 模型 的 识别 率 ， 同 时 


E 训 练 速度 上 也 有 一 定 
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—*- main/loss 

—*— validation/main/loss 
—*- main/loss ctc 

— validation/main/loss ctc 
—*— main/loss att 

—*— validation/main/loss att 


20 25 30 35 40 45 50 
epoch 


(b ”基于 混合 CTC/Attention(MTL=0.1) 的 端 到 端 


骨 模 型 


—*- main/loss 

—*- validation/main/loss 
— main/loss ctc 

—*- validation/main/loss ctc 
一 一 main/loss att 

—*- validation/main/loss att 


epoch 


(d) 
模型 训练 损失 图 


Fig.4 End-to-end model training loss graph 
如 图 6 所 示 ， 随 着 解码 器 层 数 的 加 深 ， 加 深 了 标签 之 间 


录用 定稿 杨 威 ， 等 : 混合 CTC/attention 
—*- main/loss 
—*- validation/main/loss 
50 1 —*- main/loss att 
—*- validation/main/loss att 
404 
1 
201 
10 4 
o ~ oe 
0 10 20 30 40 50 
epoch 
(a) 基于 混合 CTC/Attention(MTL=0.0) 的 端 到 端 模 型 
704 —*- main/loss 
— validation/main/loss 
—*- main/loss ctc 
60 — validation/main/loss ctc 
— main/loss att 
50 —*- validation/main/loss att 
404 
— 
201 
10 
" cera ee 
0 10 20 30 40 50 
epoch 
(c) 基于 混合 CTC/Attention(MTL=0.3) 的 端 到 端 模型 
图 4 端 到 端 
K2 深度 与 随机 失 活 率 研究 
Tab.2 Research on Depth and Random Inactivation Rate 
test 
models 
CER SER 
Dropout Rate 0.0 
12Enc-06Dec 6.4 28.9 
24Enc-24Dec 5.9 27.2 
48Enc-48Dec 5.6 26.2 
Dropout Rate 0.1 
12Enc-06Dec 6.3 28.5 
Dropout Rate 0.5 
12Enc-06Dec 73 31.8 


如 图 
频 特征 的 信息 越 具 


代表 性 


i 12 层 编码 器 


(b) 24 编码 器 


(c) 48 编码 器 


PS 


5 编码 器 自 


Hj 


意 力 


5 所 示 ， 随 着 编码 器 层 数 的 加 深 ， 编 码 器 学 习 到 音 


- B = -p 结束 语 


Fig.5 Self-attention of Encoder 


的 相关 度 ， 在 判定 句 结 
浅 层 的 网 络 ， 更 少 出 现 了 让 


(a) 06 层 解码 层 自 注意 力 


基于 混合 CTC/Attention(MTL=0.5) 的 端 到 端 


MERA 


a 片段 上 有 显著 的 提升 。 相 比 
别 少 字 的 情况 。 


ie 
a 


LS M 


在 本 文中 ， 提 出 使 用 链接 时 序 主 


(b)24 层 解码 层 权重 图 
(c)48 层 解码 层 自 ? 主意 力 权重 图 
图 6 编码 层 自 注意 力 


Fig.6 Self-attention of Decoder 


义 (CTC) 和 多 头 注意 力 


的 编码 器 -解码 器 混合 架构 模型 用 于 让 


am 


音 的 普通 话语 音 识 


相 较 于 传统 的 模块 化 模型 需要 大 量 的 人 工 ; 


备 的 资源 ， 


| s. olei 
i . j r 不 用 针对 每 一 种 方言 准 i NIA: 

i : : 只 需要 训练 一 个 单一 模型 ， 上 

——— i 识别 率 ， 还 可 以 方便 的 对 模型 的 整体 性 能 进行 调 优 ， 


到 最 先进 的 模型 的 识别 率 。 在 提 


征 的 信息 ， 可 以 显著 的 提高 带 口音 


备 语 料 和 做 模型 
不 仅 可 以 超过 一 般 的 传统 方法 的 


适应 等 复杂 过 程 ， 


可 以 达 


出 的 深度 编码 器 -解码 器 层 模 
型 下 ， 研 究 发 现 编码 器 的 深度 的 增加 可 以 更 好 的 学 到 音频 特 
普通 话 的 识 


别 率 ， 而 解码 


录用 定稿 杨 威 ， 等 : 


器 的 深度 提升 对 于 整个 语音 系统 的 提升 较 小 ， 同 时 通过 在 浅 
层 的 网 络 中 增加 失 活 率 ， 对 于 识别 率 也 有 微小 的 改进 ， 后 续 
的 研究 会 通过 改进 失 活 方式 ， 在 深层 的 网 络 中 进一步 提升 识 
别 率 。 同 时 针对 非常 深层 的 网 络 训练 速度 较 慢 的 问题 ， 进 行 
改进 和 提升 。 
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